Pular para o conteúdo principal
POST
/
api
/
v1
/
llm
/
chat
/
completions
/
stream
[Deprecatado] Completações de chat em streaming para uso de SDK gerado
curl --request POST \
  --url https://apigw.mka1.com/api/v1/llm/chat/completions/stream \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "model": "meetkai:functionary-urdu-mini-pak",
  "messages": [
    {
      "role": "user",
      "content": "What is the capital of France?"
    }
  ],
  "temperature": 0.7,
  "max_tokens": 100
}
'
{
  "event": "message",
  "data": {
    "id": "chatcmpl-abc123",
    "object": "chat.completion.chunk",
    "created": 1704067200,
    "model": "meetkai:functionary-urdu-mini-pak",
    "choices": [
      {
        "index": 0,
        "delta": {
          "role": "assistant",
          "content": "The capital of France is Paris."
        },
        "finish_reason": "stop"
      }
    ]
  }
}

Autorizações

Authorization
string
header
obrigatório

Gateway auth: send Authorization: Bearer <mka1-api-key>. For multi-user server-side integrations, you can also send X-On-Behalf-Of: <external-user-id>.

Corpo

application/json

Parâmetros de solicitação para criar uma conclusão de chat. Baseado na API de Conclusões de Chat da OpenAI.

model
string
obrigatório

ID do modelo a ser utilizado. Você pode usar o formato provider:model ou apenas o nome do modelo com um provedor padrão.

Minimum string length: 1
messages
object[]
obrigatório

Uma lista de mensagens que compõem a conversa até agora. É necessária pelo menos uma mensagem.

Minimum array length: 1
tools
object[]

Uma lista de ferramentas que o modelo pode chamar. Use isso para fornecer definições de funções que o modelo pode invocar.

tool_choice

Controles quais (se houver) ferramenta é chamada pelo modelo. 'nenhuma' significa que o modelo não chamará nenhuma ferramenta. 'automático' significa que o modelo pode escolher. 'obrigatório' força a chamada de uma ferramenta.

stream
boolean

Se definido, deltas de mensagens parciais serão enviados como eventos enviados pelo servidor. Nota: Este campo é ignorado pelo endpoint de streaming, usado apenas por endpoints de clientes compatíveis com OpenAI.

n
integer

Quantas opções de conclusão de chat gerar para cada mensagem de entrada. O padrão é 1.

Intervalo obrigatório: 1 <= x <= 9007199254740991
max_tokens
integer

O número máximo de tokens que podem ser gerados na conclusão do chat. O comprimento total dos tokens de entrada e dos tokens gerados é limitado pelo comprimento do contexto do modelo.

Intervalo obrigatório: 1 <= x <= 9007199254740991
temperature
number

Qual temperatura de amostragem usar, entre 0 e 2. Valores mais altos como 0,8 tornarão a saída mais aleatória, enquanto valores mais baixos como 0,2 a tornarão mais focada e determinística.

Intervalo obrigatório: 0 <= x <= 2
top_p
number

Uma alternativa à amostragem com temperatura, chamada amostragem de núcleo, onde o modelo considera os resultados dos tokens com massa de probabilidade top_p. Assim, 0,1 significa que apenas os tokens que compreendem os 10% superiores da massa de probabilidade são considerados.

Intervalo obrigatório: 0 <= x <= 1
frequency_penalty
number

Número entre -2,0 e 2,0. Valores positivos penalizam novos tokens com base em sua frequência existente no texto até agora, diminuindo a probabilidade do modelo repetir a mesma linha literalmente.

presence_penalty
number

Número entre -2,0 e 2,0. Valores positivos penalizam novos tokens com base em sua aparição no texto até o momento, aumentando a probabilidade do modelo de falar sobre novos tópicos.

seed
integer

Se especificado, o sistema fará o possível para amostrar de forma determinística. O determinismo não é garantido, mas a mesma semente deve, tipicamente, retornar resultados semelhantes.

Intervalo obrigatório: -9007199254740991 <= x <= 9007199254740991
stop

Até 4 sequências em que a API interromperá a geração de tokens adicionais. O texto retornado não conterá a sequência de parada.

response_format
object

Um objeto que especifica o formato que o modelo deve gerar. Configurar para { 'type': 'json_object' } habilita o modo JSON.

logprobs
boolean

Se deve retornar as probabilidades logarítmicas dos tokens de saída. Se verdadeiro, retorna as probabilidades logarítmicas de cada token de saída retornado no conteúdo da mensagem.

top_logprobs
integer

Um inteiro entre 0 e 20 que especifica o número de tokens mais prováveis a serem retornados em cada posição de token, cada um com uma probabilidade log associada. logprobs deve ser definido como verdadeiro se este parâmetro for utilizado.

Intervalo obrigatório: 0 <= x <= 20
user
string

Um identificador único que representa seu usuário final, o que pode ajudar a monitorar e detectar abusos. Também é usado para rastreamento de uso e análises.

stream_options
object

Opções para resposta em streaming. Defina isso somente quando você definir stream: true.

parallel_tool_calls
boolean
padrão:true

Se deve habilitar a chamada de funções em paralelo durante o uso da ferramenta.

reasoning_effort
enum<string> | null

Restringe o esforço em raciocínio para modelos de raciocínio. Menor esforço resulta em respostas mais rápidas e menos tokens de raciocínio. Valores suportados: 'nenhum', 'mínimo', 'baixo', 'médio', 'alto', 'muito alto' ou null.

Opções disponíveis:
none,
minimal,
low,
medium,
high,
xhigh
auto_routing
boolean

Quando verdadeiro, o gateway analisa a complexidade da solicitação e direciona automaticamente entre as variantes quantizadas, MoE e densas da família de modelos solicitados.

Resposta

200 - text/event-stream

OK

event
any
obrigatório
data
object
obrigatório

Representa um pedaço de uma resposta de conclusão de chat transmitido.

id
string
retry
integer